Evolución de las arquitecturas de MLLM
La evolución de los modelos grandes de lenguaje multimodal (MLLM) marca un cambio desde silos específicos de modalidad haciaEspacios de representación unificados, donde las señales no textuales (imágenes, audio, 3D) se traducen en un lenguaje que el modelo de lenguaje puede entender.
1. De la visión a lo multi-sensorial
- MLLM tempranos:Se centraron principalmente en Transformadores de Visión (ViT) para tareas de imagen-texto.
- Arquitecturas modernas:Integranaudio (por ejemplo, HuBERT, Whisper) ynubes de puntos 3D (por ejemplo, Point-BERT) para lograr una inteligencia verdaderamente cruzada entre modalidades.
2. El puente de proyección
Para conectar diferentes modalidades al modelo de lenguaje, se requiere un puente matemático:
- Proyección lineal:Una asignación sencilla utilizada en modelos tempranos como MiniGPT-4.
$$X_{llm} = W \cdot X_{modality} + b$$ - MLP de múltiples capas:Un enfoque de dos capas (por ejemplo, LLaVA-1.5) que ofrece una mejor alineación de características complejas mediante transformaciones no lineales.
- Re-muestreadores/abstractores:Herramientas avanzadas como el re-muestreador Perceiver (Flamingo) o Q-Former que comprimen datos de alta dimensión en tokens de longitud fija.
3. Estrategias de descodificación
- Tokens discretos:Representar salidas como entradas específicas del diccionario (por ejemplo, VideoPoet).
- Embebidos continuos:Usar señales "suaves" para guiar generadores especializados de bajo nivel (por ejemplo, NExT-GPT).
La regla de proyección
Para que un modelo de lenguaje procese un sonido o un objeto 3D, la señal debe proyectarse en el espacio semántico existente del modelo para que se interprete como una "señal de modalidad" en lugar de ruido.
TERMINALbash — 80x24
> Ready. Click "Run" to execute.
>
Question 1
Which projection technique is generally considered superior to a simple Linear layer for complex modality alignment?
Question 2
What is the primary role of ImageBind or LanguageBind in this architecture?
Challenge: Designing an Any-to-Any System
Diagram the flow for an MLLM that takes an Audio input and generates a 3D model.
You are tasked with architecting a pipeline that allows an LLM to "listen" to an audio description and output a corresponding 3D object. Define the three critical steps in this pipeline.
Step 1
Select the correct encoder for the input signal.
Solution:
Use an Audio Encoder such as Whisper or HuBERT to transform the raw audio waves into feature vectors.
Use an Audio Encoder such as Whisper or HuBERT to transform the raw audio waves into feature vectors.
Step 2
Apply a Projection Layer.
Solution:
Pass the audio feature vectors through a Multi-layer MLP or a Resampler to align them with the LLM's internal semantic space (dimension matching).
Pass the audio feature vectors through a Multi-layer MLP or a Resampler to align them with the LLM's internal semantic space (dimension matching).
Step 3
Generate and Decode the output.
Solution:
The LLM processes the aligned tokens and outputs "Modality Signals" (continuous embeddings or discrete tokens). These signals are then passed to a 3D-specific decoder (e.g., a 3D Diffusion model) to generate the final 3D object.
The LLM processes the aligned tokens and outputs "Modality Signals" (continuous embeddings or discrete tokens). These signals are then passed to a 3D-specific decoder (e.g., a 3D Diffusion model) to generate the final 3D object.